1,472 research outputs found

    Q-analysis based clustering of online news

    Get PDF
    With online publication and social media taking the main role in dissemination of news, and with the decline of traditional printed media, it has become necessary to devise ways to automatically extract meaningful information from the plethora of sources available and to make that information readily available to interested parties. In this paper we present a method of automated analysis of the underlying structure of online newspapers based on Q-analysis and modularity optimisation. We show how the combination of the two strategies allows for the identification of well defined news clusters that are free of noise (unrelated stories) and provide automated clustering of information on trending topics on news published online

    Reading the news through its structure: new hybrid connectivity based approaches

    Get PDF
    In this thesis a solution for the problem of identifying the structure of news published by online newspapers is presented. This problem requires new approaches and algorithms that are capable of dealing with the massive number of online publications in existence (and that will grow in the future). The fact that news documents present a high degree of interconnection makes this an interesting and hard problem to solve. The identification of the structure of the news is accomplished both by descriptive methods that expose the dimensionality of the relations between different news, and by clustering the news into topic groups. To achieve this analysis this integrated whole was studied using different perspectives and approaches. In the identification of news clusters and structure, and after a preparatory data collection phase, where several online newspapers from different parts of the globe were collected, two newspapers were chosen in particular: the Portuguese daily newspaper Público and the British newspaper The Guardian. In the first case, it was shown how information theory (namely variation of information) combined with adaptive networks was able to identify topic clusters in the news published by the Portuguese online newspaper Público. In the second case, the structure of news published by the British newspaper The Guardian is revealed through the construction of time series of news clustered by a kmeans process. After this approach an unsupervised algorithm, that filters out irrelevant news published online by taking into consideration the connectivity of the news labels entered by the journalists, was developed. This novel hybrid technique is based on Qanalysis for the construction of the filtered network followed by a clustering technique to identify the topical clusters. Presently this work uses a modularity optimisation clustering technique but this step is general enough that other hybrid approaches can be used without losing generality. A novel second order swarm intelligence algorithm based on Ant Colony Systems was developed for the travelling salesman problem that is consistently better than the traditional benchmarks. This algorithm is used to construct Hamiltonian paths over the news published using the eccentricity of the different documents as a measure of distance. This approach allows for an easy navigation between published stories that is dependent on the connectivity of the underlying structure. The results presented in this work show the importance of taking topic detection in large corpora as a multitude of relations and connectivities that are not in a static state. They also influence the way of looking at multi-dimensional ensembles, by showing that the inclusion of the high dimension connectivities gives better results to solving a particular problem as was the case in the clustering problem of the news published online.Neste trabalho resolvemos o problema da identificação da estrutura das notícias publicadas em linha por jornais e agências noticiosas. Este problema requer novas abordagens e algoritmos que sejam capazes de lidar com o número crescente de publicações em linha (e que se espera continuam a crescer no futuro). Este facto, juntamente com o elevado grau de interconexão que as notícias apresentam tornam este problema num problema interessante e de difícil resolução. A identificação da estrutura do sistema de notícias foi conseguido quer através da utilização de métodos descritivos que expõem a dimensão das relações existentes entre as diferentes notícias, quer através de algoritmos de agrupamento das mesmas em tópicos. Para atingir este objetivo foi necessário proceder a ao estudo deste sistema complexo sob diferentes perspectivas e abordagens. Após uma fase preparatória do corpo de dados, onde foram recolhidos diversos jornais publicados online optou-se por dois jornais em particular: O Público e o The Guardian. A escolha de jornais em línguas diferentes deve-se à vontade de encontrar estratégias de análise que sejam independentes do conhecimento prévio que se tem sobre estes sistemas. Numa primeira análise é empregada uma abordagem baseada em redes adaptativas e teoria de informação (nomeadamente variação de informação) para identificar tópicos noticiosos que são publicados no jornal português Público. Numa segunda abordagem analisamos a estrutura das notícias publicadas pelo jornal Britânico The Guardian através da construção de séries temporais de notícias. Estas foram seguidamente agrupadas através de um processo de k-means. Para além disso desenvolveuse um algoritmo que permite filtrar de forma não supervisionada notícias irrelevantes que apresentam baixa conectividade às restantes notícias através da utilização de Q-analysis seguida de um processo de clustering. Presentemente este método utiliza otimização de modularidade, mas a técnica é suficientemente geral para que outras abordagens híbridas possam ser utilizadas sem perda de generalidade do método. Desenvolveu-se ainda um novo algoritmo baseado em sistemas de colónias de formigas para solução do problema do caixeiro viajante que consistentemente apresenta resultados melhores que os tradicionais bancos de testes. Este algoritmo foi aplicado na construção de caminhos Hamiltonianos das notícias publicadas utilizando a excentricidade obtida a partir da conectividade do sistema estudado como medida da distância entre notícias. Esta abordagem permitiu construir um sistema de navegação entre as notícias publicadas que é dependente da conectividade observada na estrutura de notícias encontrada. Os resultados apresentados neste trabalho mostram a importância de analisar sistemas complexos na sua multitude de relações e conectividades que não são estáticas e que influenciam a forma como tradicionalmente se olha para sistema multi-dimensionais. Mostra-se que a inclusão desta dimensões extra produzem melhores resultados na resolução do problema de identificar a estrutura subjacente a este problema da publicação de notícias em linha

    Traversing news with ant colony optimisation and negative pheromones

    Get PDF
    The past decade has seen the rapid development of the online newsroom. News published online are the main outlet of news surpassing traditional printed newspapers. This poses challenges to the production and to the consumption of those news. With those many sources of information available it is important to find ways to cluster and organise the documents if one wants to understand this new system. Traditional approaches to the problem of clustering documents usually embed the documents in a suitable similarity space. Previous studies have reported on the impact of the similarity measures used for clustering of textual corpora [1]. These similarity measures usually are calculated for bag of words representations of the documents. This makes the final document-word matrix high dimensional. Feature vectors with more than 10,000 dimensions are common and algorithms have severe problems with the high dimensionality of the data. A novel bio inspired approach to the problem of traversing the news is presented. It finds Hamiltonian cycles over documents published by the newspaper The Guardian. A Second Order Swarm Intelligence algorithm based on Ant Colony Optimisation was developed [2, 3] that uses a negative pheromone to mark unrewarding paths with a “no-entry” signal. This approach follows recent findings of negative pheromone usage in real ants [4]. In this case study the corpus of data is represented as a bipartite relation between documents and keywords entered by the journalists to characterise the news. A new similarity measure between documents is presented based on the Q-analysis description [5, 6, 7] of the simplicial complex formed between documents and keywords. The eccentricity between documents (two simplicies) is then used as a novel measure of similarity between documents. The results prove that the Second Order Swarm Intelligence algorithm performs better in benchmark problems of the travelling salesman problem, with faster convergence and optimal results. The addition of the negative pheromone as a non-entry signal clearly improved the quality of the solutions. The application of the algorithm to the corpus of news of The Guardian creates a coherent navigation system among the news. This allows the users to navigate the news published during a certain period of time in a semantic sequence instead of a time sequence. This work as broader application as it can be applied to many cases where the data is mapped to bipartite relations (e.g. protein expressions in cells, sentiment analysis, brand awareness in social media, routing problems), as it highlights the connectivity of the underlying complex system

    The contributing factors of large wildfires : exploring the main structural factors driving large wildfire ignition and spread in central Portugal (2005-2015)

    Get PDF
    Dissertation presented as partial requirement for obtaining the Master’s degree in Statistics and Information Management, with a specialization in Information Analysis and ManagementLarge wildfires have devastating human, environmental and economic consequences and are responsible for the majority of total burned area in Mediterranean Europe, even though they account for only a marginal portion of all fire occurrences. Most predictions suggest a global intensification of fire danger, and among all European Mediterranean countries Portugal displays the highest fire incidence. The purpose of this work is to examine the main factors driving large wildfire ignition and spread in central Portugal between 2005 and 2015, contributing with empiric knowledge on their importance and variability throughout the study area. This research was successful at listing a comprehensive set of elements contributing to fire occurrence and at gathering data on these phenomena. Spatial cluster analysis was used to find homogeneous regions within the study area concerning the main factors influencing both fire ignition and burned area. Probit and two-part regression techniques were used to model the contribution of the different elements driving large fire occurrence and propagation. The main findings of this analysis confirm the presence of spatial variability in the contribution exerted by most structural factors driving large wildfire ignition and spread in central Portugal. Additionally, while vegetation characteristics appear much more relevant for fire propagation, socioeconomic elements seem to be connected to fire incidence. All in all, this research provides relevant input with implementation in different fields, from large fire awareness and prevention to the development of wildfire policies, as well as appropriate contributions to methodological concerns in fire danger and fire risk analyses.Os grandes incêndios rurais têm como consequência impactos socioeconómicos e ambientais devastadores e são responsáveis pela maior parte do total de área ardida na Europa mediterrânica, ainda que representem apenas uma fração pouco expressiva do total de ocorrências. A maioria dos estudos prevê uma intensificação do perigo de incêndio, sendo que, entre todos os países europeus da bacia mediterrânica, é Portugal quem apresenta a mais alta incidência deste fenómeno. O objetivo deste trabalho é estudar os fatores que mais contribuíram para a ignição e propagação de grandes incêndios rurais no centro de Portugal entre 2005 e 2015, concorrendo assim com conhecimento empírico relativamente à sua importância e variabilidade na área de estudo. Esta investigação conseguiu listar um conjunto abrangente de elementos que contribuem para a ocorrência de incêndios rurais, assim como reunir os dados necessários. Uma análise de clusters espacial foi aplicada para identificar regiões homogéneas dentro da área de estudo no que respeita aos principais fatores influenciando a ignição e o alastrar dos grandes incêndios. Modelos probit e em duas partes foram utilizados para analisar a contribuição dos diferentes elementos para a ocorrência e propagação dos fogos. Os resultados deste estudo confirmam a presença de variação espacial no impacto exercido pela maioria dos fatores estruturais que contribuem para a ocorrência e propagação dos grandes incêndios rurais. Por outro lado, enquanto as características da vegetação se revelam mais relevantes na perspetiva do alastrar dos incêndios, os fatores socioeconómicos parecem estar relacionados com a ignição destes fenómenos. Em suma, este estudo contribui com informação relevante, a implementar em diferentes âmbitos, desde a consciencialização das populações à prevenção e ao desenvolvimento de políticas na área dos fogos rurais. Este apresenta ainda contributos apropriados na área de metodologias de análise do perigo e risco de incêndio

    Detecção de comunidades no sistema de correio electrónico universitário

    Get PDF
    O estudo de sistemas estruturados em redes sociais conheceu inúmeros desenvolvimentos na aplicação da teoria de grafos às ciências sociais. Um dos aspectos recentes tem sido o da detecção de módulos, ou comunidades, em redes sociais. Diversos algoritmos e estratégias tem sido desenvolvidos para identificar a estrutura existente por detrás das interacções sociais. Atrav´es de um estudo de caso, mostrámos a existência de comunidades de comunicação informal que utiliza a rede de correio electrónico do ISCTE, através da aplicação de algoritmos hierárquicos de detecção de comunidades. Analisámos a estrutura hierárquica da rede através de k-cores e verificámos que a as comunidades de comunicação informal formadas ultrapassam as fronteiras dos departamentos institucionais através do método de percolação de cliques. `As comunidades detectadas aplicámos uma medida de variação de informação para determinar a distancia entre os diversos departamentos. Construímos um modelo de simulação multi-agente, para mimar o sistema de comunicação informal através de correio electrónico, CIUCEU, que nos permitiu verificar a influencia da vizinhança “social” dos agentes na criação e manutenção da estrutura da rede de professores do ISCTE. Analisámos ainda a utilização de simulações alimentadas por dados reais, concluindo sobre as implicações da utilização de dados reais sobre o desenho da simulação.The study of structured systems in social networks has gone through several developments by the use of graph theory in social sciences. On aspect that has been given considerable attention in recent years is the module or community detection in social networks. Several algorithms and strategies have been developed to identify the structure behind social interaction. Through a case study we show the existence of communities based on informal communication that use the email system at ISCTE. We applied a set of hierarchical algorithms to detect communities. Also, we analyzed the hierarchical structure through the k-cores method and verified the transitivity of the communities detected through clique percolation to put in evidence that informal communities are transversal to the institution departments. We also used a information variation measure to compare distances between different clusterings. We built a multi-agent simulation to model the informal communication mechanism of the email system, CIUCEU. This is used to verify the dependence of the system on the notion of social neighborhood, in the teachers network of ISCTE. We also analyzed the usage of real data and concluded on its implications of the sampling and drawing os multi-agent simulations

    Assessing personality with the shedler and westen assessment procedure (swap-200): A new approach using the psychoanalysis session notes

    Get PDF
    Dissertação de Mestrado apresentada ao Instituto Superior de Psicologia Aplicada para obtenção de grau de Mestre na especialidade de Psicologia Clínica.Diagnosticar as perturbações de personalidade sempre foi um desafio. Existem, ainda antes do princípio do séc. 20, teorias que tentam explicar as perturbações de personalidade e a sua respectiva distinção. As contribuições mais valiosas da psicologia clínica para a personalidade e a sua patologia, têm sido a criação de instrumentos que avaliam as perturbações de personalidade no contexto clínico. No entanto, esses instrumentos não espelham os procedimentos de avaliação usados na prática clínica, onde os clínicos obtêm a informação para avaliar os processos da personalidade através das narrativas e dos aspectos mais relevante do paciente (tais como as formas de regular as emoções, a capacidade para ter relações íntimas e o comportamento face ao clínico) e tiram as suas próprias conclusões. (Westen, 1997). Neste estudo, apresentamos uma abordagem alternativa para fornecer descrições clinicamente ricas e detalhadas da personalidade de uma forma empírica e quantitativa, a Shedler and Westen Assessment Procedure (SWAP-200; Shedler & Westen, 2004b; Westen & Shedler, 1999a, 1999b), que é baseada na Metodologia Q. Deste modo, é analisada a sua fiabilidade e viabilidade, os grupos diagnósticos emergentes e o uso clínico deste instrumento. A literatura revista para uma alternativa em avaliar os perturbações de personalidade através da SWAP-200 demonstrou que este instrumento de avaliação, administrada pelo próprio clínico é significativamente uma medida clínica para a avaliação da personalidade, e pode providenciar futuras investigações para um melhor diagnostico dos perturbações da personalidade.Diagnosing personality disorders (PDs) is always been a challenge. Even before the begging of the 20th century, there are theories that try to explain the PDs and the distinction between them. The most valuable contributions from clinical psychology to personality and its pathology consisted in the creation of instruments for the assessment of personality disorders in clinical context. However, these instruments do not mirror the assessment procedures used in clinical practice, whereas clinicians elicit the information to assessing personality processes through the narrative and the most relevant aspects from a subject (such as ways of regulating emotions, capacity for intimate relationships and the behavior toward the interviewer in the consulting room) and draw independent conclusions (Westen, 1997). In this study, we present an alternative approach to provide detailed, clinically rich personality descriptions in a empirical and quantifiable form, the Shedler-Westen Assessment Procedure (SWAP-200; Shedler & Westen, 2004a, 2004b; Westen & Shedler, 1999a, 1999b), based on the Qmethodology. This way, it’s analyzed the reliability and validity, the emerged diagnostic groupings and the clinical use of this instrument. The reviewed literature for an alternative in assessing personality disorders through the SWAP-200 demonstrated that this clinician administered instrument is a clinically significant diagnostic measure of personality, which can provide future investigations to personality disorders diagnosis
    corecore